Создание паттернов для поиска и распознавания аминокислотных последовательностей

На главную страницу семестра

Создание множественное выравнивания последовательности белка DPO3E_ECOLI и 5-ти его гипотетических ортологов

С помощью программы blastp нашли в банке Swiss-Prot предпологаемые гомологи моего белка (AC=P03007). Из них выбрали 5 наиболее вероятных ортологов:
  1. DPO3E_PASMU (AC=Q9CPE0, Score = 292 bits (748), Expect = 5e-79, Identities = 151/237 (63%), Positives = 179/237 (75%), Gaps = 2/237 (0%),
  2. DPO3E_HAEIN ( AC=P43745, Score = 282 bits (722), Expect = 6e-76, Identities = 146/242 (60%), Positives = 182/242 (75%), Gaps = 8/242 (3%)
  3. DPO3E_BUCAP ( AC=Q08880, Score = 236 bits (601), Expect = 6e-62, Identities = 113/233 (48%), Positives = 163/233 (69%), Gaps = 9/233 (3%)
  4. DPO3E_BUCBP (AC=Q89AN3, Score = 230 bits (587), Expect = 3e-60, Identities = 111/239 (46%), Positives = 166/239 (69%), Gaps = 9/239 (3%)
  5. DPO3E_RICPR (AC=Q9ZCJ9, Score = 200 bits (509), Expect = 3e-51, Identities = 107/226 (47%), Positives = 151/226 (66%), Gaps = 5/226 (2%)
В первом приближении считали признаком ортологичности совпадение названий белков из разных организмов, с процентом идентичности в диапазоне 40-80%, E-value находки не хуже 0,001, в моем случае значения E-value были очень хорошие, не больше 3e-51.
Получили файл с последовательностями белка DPO3E_ECOLI и всех отобранных "ортологов" в формате FASTA (в верхних строках перед последовательностями оставили только ID). С помощью программы muscle построили множественное выравнивание белка и его "ортологов". Импортировали файл в GeneDoc (полное выравнивание находится в файле orthologues.msf), и там выбрали консервативный участок 13 аминокислотных остатков (отмечен зеленым), для дальнейшего исследования (при этом участок был выбран таким образом, что не все аминокислоты в столбце совпадали, хотя такие участки были, и длина их была значительна).

Данный участок приводим ниже:

                                                               
                                  *       1 0                  
D P O 3 E _ R I C P   :   F D I K F L N H E L S L L   :     1 3
D P O 3 E _ E C O L   :   F D I G F M D Y E F S L L   :     1 3
D P O 3 E _ P A S M   :   F D V G F M D Y E F K K L   :     1 3
D P O 3 E _ H A E I   :   F D V G F M D Y E F R K L   :     1 3
D P O 3 E _ B U C B   :   F D V G F I N Y E L N M I   :     1 3
D P O 3 E _ B U C A   :   F D V G F I N Q E F S M L   :     1 3
                          F D 6   F 6 1   E       6            

Создание паттернов по множественному выравниванию и проведение поиска по паттернам в банке данных Swiss-Prot

В этом задании мы, после тщательного рассмотрения полученного участка, создали ряд паттернов, первый из которых мог бы найти только мой белок (просто аминокислотная последовательность данного участка), второй находил бы только белки, выбранные мной, как ортологи и мой белок (такая последовательность паттерна, которая учитывала бы все возможные аминокислоты во всех позициях этих белков), третий паттерн должен, на мой взгляд, показать все последовательности, обладающие близкими свойствами с моим белком (для этого второй паттерн был несколько ослаблен).
Результаты вы можете увидеть в таблице:

Характеристика паттерна Паттерн В скольких последовательностях банка Swiss-Prot найден мотив, удовлетворяющий паттерну? Все ли последовательности из Вашего выравнивания найдены?
Фрагмент последовательности FDIGFMDYEFSLL 1 Найдена только последовательность моего белка (DPO3E_ECOLI)
Сильный F-D-[IV]-[KG]-[LMI]-[ND]-[HYQ]-E-[FL]-[SKRN]-[LKM]-[LI] 7 Найдены все взятые последовательности, плюс еще одна с ID=DPO3E_RICCN (в общем вырвнивании по моему белку он был следующим после приведенных в задании)
Слабый F-[DE]-[IVLAM]-[KG]-F-{DEY}-[NDEQ]-[HRKPYQN]-E-X(3)-[LIV] 10 Все последовательности найдены
Слабый F-[DE]-[IVLAM]-X-F-{DEY}-[NDEQ]-X-E-X(3)-[LIV] 19 Все последовательности найдены



Результаты:

Поставленные в начале таблицы задачи на мой взгляд можно считать выполненными. Первый паттерн действительно выдал только одну последовательность (моего белка), второй паттерн на выходе дал все выбранные мной белки, и кроме того, еще один белок DPO3E_RICCN. Но если посмотреть еще раз в общее выравнивание, можно заметить, что это белок, который следовал прямо за выбранными белками и не сильно от них отличался, кроме того, он также принадлежал к семейству ДНК-полимераз (а именно эпсилон субъединица, как и все остальные).
Результаты третьего паттерна наиболее, на мой взгляд, интересны (именно поэтому по ним мы провели больше поисков). Десять (а также одиннадцать) белков было получено в результате большого количества поисков (при использовании паттернов разной степени ослабленности), при этом всегда находились одни и те же белки ( принадлежащие к одному семейству; те самые которые "возглавляли" таблицу результатов из BLASTа ), только при ослаблении уже слабого паттерна по четвертой позиции последовательности, результат поиска увеличился до 19, но при этом половина белков принадлежало уже к другим группам (не ДНК-полимеразы III), что не совпадало с поставленной задачей. Что интересно, аминокислота E (Глутаминовая кислота) в 9-ой позиции похоже имеет большое значение, так как, если в данной позиции ставить любую аминокислоту, то результат сильно меняется, но если ее оставлять, то даже при замене аминокислот, лежащих до нее, и удалении участка после, то результат очень неплохой (13 белков, лишь два белка отличаются от результатов третьего паттерна).

©Метелев Михаил